热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

尾花|花萼_相关性Correlations皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)

篇首语:本文由编程笔记#小编为大家整理,主要介绍了相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)相关的知识,希望对你有一定的参考价值。 相关

篇首语:本文由编程笔记#小编为大家整理,主要介绍了相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)相关的知识,希望对你有一定的参考价值。



相关性Correlations
  • Correlations,相关度量,目前Spark支持两种相关性系数:皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。相关系数是用以反映变量之间相关关系密切程度的统计指标。简单的来说就是相关系数绝对值越大(值越接近1或者-1), 当取值为0表示不相关,取值为(0~-1]表示负相关,取值为(0, 1]表示正相关。

  • Pearson相关系数表达的是两个数值变量的线性相关性, 它一般适用于正态分布。其取值范围是[-1, 1], 当取值为0表示不相关, 取值为[-1~0)表示负相关,取值为(0, 1]表示正相关。

公式


  • Spearman相关系数也用来表达两个变量的相关性,但是它没有Pearson相关系数对变量的分布要求那么严格, 另外Spearman相关系数可以更好地用于测度变量的排序关系。其计算公式为:

公式


  1. 根据输入类型的不同,输出的结果也产生相应的变化。如果输入的是两个RDD[Double],则输出的是一个double类型的结果;
    如果输入的是一个RDD[Vector],则对应的输出的是一个相关系数矩阵。具体操作如下所示:

  2. 接下来我们先从数据集中获取两个series,这两个series要求必须数量相同,这里我们取莺尾花的前两个属性:

  3. 然后,我们调用Statistics包中的corr()函数来获取相关性,这里用的是"pearson" 皮尔逊,当然根据不同需要也可以选择"spearman" 斯皮尔曼等级:

  4. 上面介绍了求两个series的相关性,接下来介绍一下如何求 [相关系数矩阵]。
    方法是类似的,首先还是先从数据集中获取一个RDD[Vector],为了进行对照,我们同样选择前两个属性:

  5. 我们调用Statistics包中的corr()函数,这里也同样可以选择"pearson"或者"spearman",得到相关系数矩阵:默认使用 皮尔逊

package basicstatistics
import org.apache.log4j.Level, Logger
import org.apache.spark.SparkContext
import org.apache.spark.mllib.linalg
import org.apache.spark.mllib.linalg.Matrix, Vectors
import org.apache.spark.mllib.stat.Statistics
import org.apache.spark.rdd.RDD
/**
*
* 相关性Correlations
*
* Correlations,相关度量,目前Spark支持两种相关性系数:皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)。
* 相关系数是用以反映变量之间相关关系密切程度的统计指标。简单的来说就是相关系数绝对值越大(值越接近1或者-1),
* 当取值为0表示不相关,取值为(0~-1]表示负相关,取值为(0, 1]表示正相关。
* Pearson相关系数表达的是两个数值变量的线性相关性, 它一般适用于正态分布。其取值范围是[-1, 1], 当取值为0表示不相关,
* 取值为[-1~0)表示负相关,取值为(0, 1]表示正相关。
*
* 公式 http://mocom.xmu.edu.cn/blog/58482eb8e083c990247075aa.png
*
* Spearman相关系数也用来表达两个变量的相关性,但是它没有Pearson相关系数对变量的分布要求那么严格,
* 另外Spearman相关系数可以更好地用于测度变量的排序关系。其计算公式为:
*
* 公式 http://mocom.xmu.edu.cn/blog/58482eb3e083c990247075a9.png
*/

object CorrelationsDemo
def main(args: Array[String]): Unit =
Logger.getLogger("org").setLevel(Level.ERROR)
val sc = new SparkContext("local[*]", "")
/**
* 根据输入类型的不同,输出的结果也产生相应的变化。如果输入的是两个RDD[Double],则输出的是一个double类型的结果;
* 如果输入的是一个RDD[Vector],则对应的输出的是一个相关系数矩阵。具体操作如下所示:
*/

// 接下来我们先从数据集中获取两个series,这两个series要求必须数量相同,这里我们取莺尾花的前两个属性:
val seriesX: RDD[Double] = sc.textFile("/home/rjxy/IdeaProjects/spark/spark_mllib_course/src/main/resources/data/iris.data")
.map(_.split(",")).map(p => p(0).toDouble)
val seriesY: RDD[Double] = sc.textFile("/home/rjxy/IdeaProjects/spark/spark_mllib_course/src/main/resources/data/iris.data")
.map(_.split(",")).map(p => p(1).toDouble)
// 然后,我们调用Statistics包中的corr()函数来获取相关性,这里用的是"pearson" 皮尔逊,当然根据不同需要也可以选择"spearman" 斯皮尔曼等级:
val seriesCorrelation: Double = Statistics.corr(seriesX, seriesY, "pearson")
println(seriesCorrelation+" double")
//-0.1594565184858299 spearman
//-0.10936924995064387 pearson 说明数据集的前两列,即花萼长度和花萼宽度具有微小的 负相关性 。
// 上面介绍了求两个series的相关性,接下来介绍一下如何求 [相关系数矩阵]。
// 方法是类似的,首先还是先从数据集中获取一个RDD[Vector],为了进行对照,我们同样选择前两个属性:
val data: RDD[linalg.Vector] = sc.textFile("/home/rjxy/IdeaProjects/spark/spark_mllib_course/src/main/resources/data/iris.data")
.map(_.split(",")).map(p => Vectors.dense(p(0).toDouble, p(1).toDouble))
//我们调用Statistics包中的corr()函数,这里也同样可以选择"pearson"或者"spearman",得到相关系数矩阵:
//默认使用 皮尔逊
val dataCorrelation: Matrix = Statistics.corr(data)
println(dataCorrelation+"矩阵")















阅读世界,共赴山海


423全民读书节,邀你共读


推荐阅读
  • Flex 截图 实例 ... [详细]
  • 本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 1.如何在运行状态查看源代码?查看函数的源代码,我们通常会使用IDE来完成。比如在PyCharm中,你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢?当我们想使用一个函 ... [详细]
  • 本文详细介绍了如何配置Apache Flume与Spark Streaming,实现高效的数据传输。文中提供了两种集成方案,旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]
  • 本文详细探讨了如何在 SparkSQL 中创建 DataFrame,涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分,本文将持续更新以提供最新信息。 ... [详细]
  • 本文详细探讨了Scala中单例模式的实现方式,通过关键字object来模拟其他语言中的静态成员功能,同时介绍了伴生对象的概念及其应用场景。 ... [详细]
  • Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]
  • 本文介绍如何使用Objective-C结合dispatch库进行并发编程,以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码,展示dispatch库的强大功能。 ... [详细]
  • 主要用了2个类来实现的,话不多说,直接看运行结果,然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]
  • 前言--页数多了以后需要指定到某一页(只做了功能,样式没有细调)html ... [详细]
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • Android LED 数字字体的应用与实现
    本文介绍了一种适用于 Android 应用的 LED 数字字体(digital font),并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景,能够增强视觉效果。 ... [详细]
  • 本文详细解析了Python中的os和sys模块,介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]
  • 深入理解Play Framework 1.2.7中的缓存机制
    本文探讨了Play Framework 1.2.7版本中提供的缓存解决方案,包括Ehcache和Memcached的集成与使用。文章详细介绍了缓存相关的类及其功能,以及如何通过配置选择合适的缓存实现。 ... [详细]
author-avatar
我爱看电视OK
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有